home *** CD-ROM | disk | FTP | other *** search
/ JCSM Shareware Collection 1993 November / JCSM Shareware Collection - 1993-11.iso / cl760 / stat1j.lzh / SHZIPARC.EXE / WATSTAT.TXT < prev    next >
Text File  |  1991-12-26  |  72KB  |  1,061 lines

  1. *DISCLAIM,A
  2.                                  IMPORTANT:
  3.      Always consider WATSTAT's recommendations as a STARTING POINT and NOT
  4.  THE FINAL WORD: they are merely intended to serve as guides to further study
  5.  and consultation.  WATSTAT can only recommend what is USUALLY appropriate,
  6.  given the specifications you provide.  Other unspecified factors my over-
  7.  ride those that WATSTAT considers.  Moreover, it would be unwise to ignore
  8.  such "non-statistical" factors as: what procedures make the most theoretical
  9.  sense; what procedures are established and expected in your field; and what
  10.  procedures you and your readers will be able to interpret.
  11. *RAND,A
  12.      NOTE: Since you specified Random Sampling or Random Assignment, it is
  13.  legitimate to use INFERENTIAL STATISTICS (Significance Tests & Confidence
  14.  Limits) as well as DESCRIPTIVE STATISTICS.  But when you use Inferential
  15.  statistics, you must still report important Descriptive statistics, such as
  16.  means & standard deviations, percentages, or correlation coefficients.
  17. *NONRAND,A
  18.      NOTE: Since you have a non-random sample, NO INFERENTIAL STATISTICS
  19.  (such as Significance Tests or Confidence limits) are appropriate.  Hence,
  20.  WATSTAT will recommend only DESCRIPTIVE STATISTICS.
  21. *WHAT_DES,A
  22.      Report all Descriptive statistics needed to characterize your sample
  23.  (e.g., demographics) and, depending upon your analytical focus, report those
  24.  that most clearly show: 1) the magnitude of sub-sample differences; 2) the
  25.  strength & direction of associations; or 3) the characteristics of a single
  26.  variable's distribution, e.g., its "average," "dispersion," and "shape."
  27.      In deciding what Descriptive statistics to report, ask yourself: "What
  28.  information will a reader need to REPLICATE my analysis or to COMPARE my
  29.  results to those of others?"
  30. *D-UNI-NOM,A
  31.     Summarize the distribution with a percentage table and point out the
  32.  Modal and sparse categories.  Optionally, present percentages graphically
  33.  in a bar or pie chart.
  34. *D-NOM-SMALL,A
  35.     CAUTION: Due to your small sample size, each case counts for more than 1%
  36.  and a seemingly large between-category % difference could be due to very few
  37.  cases.  Take this into account in deciding whether percentage differences
  38.  reflect important substantive differences in the cases you're describing.
  39. *D-UNI-RANK,A
  40.     If your data are inherently in the form of ranks, sample size determines
  41.  all the key descriptive statistics and there is no need to report them.  You
  42.  should report the number of ties and the ranks on which most ties occur.
  43.     If you have an Ordinal variable (not originally in ranks) the Median is
  44.  the appropriate "average" and the Quartile Deviation the appropriate index
  45.  of "dispersion."   Usually, it is also appropriate to report some additional
  46.  Percentiles to give a more complete picture of the variable's distribution,
  47.  for example, the 25th & 75th Percentiles, or the upper and lower Deciles.
  48. *D-UNI-PART,A
  49.     If your Ordinal categories allow, compute the Median and Quartile Devia-
  50.  tion to index the "average" and "degree of dispersion," respectively.  If
  51.  data are inherently grouped and if it is inappropriate to compute the Median
  52.  exactly, report the category it falls in and its approximate location in the
  53.  category.  Summarize the distribution with a percentage table and point out
  54.  the Modal and sparse categories.  Optionally, present percentages graphically
  55.  in a bar or pie chart.
  56. *D-UNI-INT,A
  57.     If your data are dichotomized, report the cut-point that divides the
  58.  categories and the percentage (or proportion) of cases in each category.
  59.     If your data are continuous or grouped into 3 or more categories, use the
  60.  Mean and Standard Deviation to index the "average" and "dispersion" of the
  61.  distribution.  If the distribution is highly skewed or if there are some
  62.  extreme values that could make the Mean a "misleading average," report the
  63.  Median instead of, or in addition to, the Mean.  Whether or not the data are
  64.  skewed, it is usually wise to report some key Percentiles to provide a more
  65.  complete picture of the distribution, for example, the 25th & 75th Percent-
  66.  iles, or the upper and lower Deciles.
  67.     If the data are grouped, a Percentage Table or equivalent graphic (e.g.,
  68.  a bar chart) is usually appropriate.  If you don't use a percentage table
  69.  with grouped data, consider reporting where the Mode falls and which, if
  70.  any, categories are exceptionally sparse.
  71.     If the data are continuous and if it is important to describe the shape
  72.  of the distribution, consider grouping the data and using procedures noted
  73.  in the preceding paragraph.  Alternatively, you could present the data in a
  74.  Frequency Polygon (line chart) or in an Ogive (a line chart that shows the
  75.  cumulative frequency distribution).
  76. *D-COMP1-NOM,A
  77.     Percentage tables are usually the best for comparing Nominal distribu-
  78.  tions across sub-samples.  Use Percentage Differences to index the magnitude
  79.  of sub-sample differences, and point out the Modal and sparse categories for
  80.  each sub-sample.  Optionally, present percentages graphically in bar charts.
  81. *D-COMP2-NOM,A
  82.     Percentage tables are usually the best for comparing Nominal distribu-
  83.  tions across sub-samples.  Use Percentage Differences to index the magnitude
  84.  of sub-sample differences, and point out the Modal and sparse categories for
  85.  each sub-sample.  Multivariate percentage tables are appropriate for showing
  86.  differences across two or more Independent (Comparison) variables, especial-
  87.  ly when there are important Interaction (Specification) effects.  However,
  88.  such tables are more difficult to read, so it is usually advisable to break
  89.  them into a set of bivariate Partial Tables.  Standardized Percentage Tables
  90.  can be used to adjust for one or more Comparison variables without showing
  91.  them directly in the tables, but standardization can only be used for Com-
  92.  parison variables that do not Interact with others.  As an alternative to
  93.  tables, consider presenting percentages graphically in bar charts.
  94. *D-COMP-RANK,A
  95.     If your Dependent variable is inherently in the form of ranks, your best
  96.  option is probably to compare Mean Ranks across sub-samples.  However, keep
  97.  in mind that Mean Ranks are not the same as means computed on Interval data,
  98.  so the absolute size of sub-sample differences is not meaningful: focus only
  99.  on "greater-than" and "less-than" relationships between Mean Ranks of your
  100.  sub-samples.  Unless ties are rare, report the number of ties and the ranks
  101.  on which most ties occur.
  102.     If your Ordinal Dependent variable is not ranked, the Median is the
  103.  appropriate "average" and the Quartile Deviation the appropriate index of
  104.  "dispersion."   Compare Medians across sub-samples, and search for possible
  105.  "interaction effects" between Comparison variables.  Focus on the RELATIVE
  106.  SIZE of sub-sample Medians (i.e., "greater-than" & "less-than" relations),
  107.  because the absolute magnitude of Ordinal-scale Medians is not meaningful.
  108.  Usually, it is also appropriate to report some additional Percentiles (e.g.,
  109.  the 25th & 75th Percentiles or the highest & lowest Deciles) to give a more
  110.  complete picture of each sub-sample distribution.
  111. *D-COMP-PART,A
  112.      The best way to assess differences on a "Partially Ordered" variable
  113.  depends on whether you're able to compute sub-sample Medians.
  114.      If your data allow you to determine Medians exactly, report the Medians
  115.  for all sub-samples and focus on the RELATIVE SIZE of sub-sample Medians
  116.  (i.e., "greater-than" & "less-than" relations), since the absolute magnitude
  117.  of Ordinal-scale Medians is not meaningful.  If you have two or more Compar-
  118.  ison Variables, search for possible "interactions" between these variables.
  119.      If the grouping of data doesn't allow you to compute Medians, you won't
  120.  be able to compare sub-sample "averages" in a way that takes full advantage
  121.  of the Dependent variable's Ordinal properties.  The best approach in this
  122.  case is to present the data in Percentage Tables, which assume only Nominal
  123.  measurement.  (Optionally, present percentages graphically in bar charts.)
  124.  Use % Differences to index the magnitude of sub-sample differences and point
  125.  out the Modal and sparse categories for each sub-sample.  Since you should
  126.  be able to specify the CATEGORIES THAT CONTAIN THE MEDIAN for the various
  127.  sub-samples, you can also base comparisons on the APPROXIMATE location of
  128.  Medians; since categories are ordered, you should also be able to interpret
  129.  an approximate difference in Medians as evidence that one sub-sample has a
  130.  higher "average" than another.
  131. *D-COMP1-INT,A
  132.      With Interval Dependent Variables it is usually appropriate to base
  133.  sub-sample comparisons on Means.  Report all sub-sample Means and Standard
  134.  Deviations.
  135. *D-COMP2-INT,A
  136.      If you have two or more Comparison Variables, search for possible inter-
  137.  actions.  If you have one or more Interval-Level Independent variables that
  138.  you wish to control ("hold constant"), Analysis of Covariance procedures can
  139.  be used to adjust sub-sample Means for such variables.
  140. *D-COMP-DICH,A
  141.      Percentage tables are usually best for comparing Dichotomous Dependent
  142.  variables across sub-samples, but it may be appropriate to use Rates or
  143.  Proportions rather than %'s, especially if the Dependent variable represents
  144.  a relatively rare occurrence, such as a disease or mortality outcome.  [Note
  145.  that Rates & Proportions may be analyzed and tabulated in much the same way
  146.  as Percentages, although they are expressed on different scales.]
  147.     Use % Differences [or Rate or Proportion Differences] to index the magni-
  148.  tude of sub-sample differences, and point out the Modal and sparse catego-
  149.  ries for the various sub-samples.  Multivariate tables are appropriate for
  150.  showing differences across two or more Independent (Comparison) variables,
  151.  especially when important Interaction (Specification) effects are present.
  152.  However, such tables are more difficult to read, so it may be advisable to
  153.  break them into a set of bivariate Partial Tables.  "Standardized Partial
  154.  Percentage Tables" can be used to adjust for one or more Independent vari-
  155.  ables without showing them directly in the tables, but standardization can
  156.  only be used for Independent variables that do not Interact with others.
  157.  Instead of tables, consider presenting Percentages [or Rates or Proportions]
  158.  in graphic charts.
  159. *D-COMP-OTHER2,A
  160.      Except for Interval Dependent Variables, there is no procedure designed
  161.  to handle simultaneous sub-sample comparisons for 2 or more Dependent vari-
  162.  ables.  Your only option is to run a separate analysis for each Dependent
  163.  variable.  To get recommendations appropriate for these separate analyses,
  164.  return to WATSTAT's Choice Boxes and select an Option other than "2 or More
  165.  Dependent Variables" in Box 4.
  166. *D-BIVAR-NOM/NOM,A
  167.     If the two Nominal variables are dichotomized, use the Phi Coefficient
  168.  as a measure of association.  If either or both of your Nominal variables
  169.  has 3 or more categories, use Cramer's V, which is the same as Phi except
  170.  that it adjusts for the number categories.
  171. *D-BIVAR-NOM/RANK,A
  172.     There is no statistic specifically designed to measure the association
  173.  between a Nominal Dependent variable and an Ordinal Independent variable.
  174.  Your only choice is to break the Ordinal variable into categories and treat
  175.  it as Nominal.  If you dichotomize it, select a cut-point as close to the
  176.  Median as possible; if you break it into 3 or more categories, select cut-
  177.  points that yield approximately equal frequencies across categories.  Once
  178.  the Ordinal variable is categorized, the appropriate statistics are those
  179.  for two Nominal variables.
  180.     If the two Nominal variables are dichotomized, use the Phi Coefficient
  181.  as a measure of association.  If either or both of your Nominal variables
  182.  has 3 or more categories, use Cramer's V, which is the same as Phi except
  183.  that it adjusts for the number categories.
  184. *D-BIVAR-NOM/PART,A
  185.     There is no statistic specifically designed to measure the association
  186.  between a Nominal Dependent variable and an Independent variable that is
  187.  cast in the form of Ordinal categories.  Your only choice is to treat the
  188.  Ordinal variable as if it were a set of Nominal categories, and the only
  189.  appropriate statistics are those for two Nominal variables.
  190.     If the two Nominal variables are dichotomized, use the Phi Coefficient
  191.  as a measure of association.  If either or both of your Nominal variables
  192.  has 3 or more categories, use Cramer's V, which is the same as Phi except
  193.  that it adjusts for the number categories.
  194. *D-BIVAR-NOM/INT,A
  195.     There is no statistic specifically designed to measure the association
  196.  between a Nominal Dependent variable and an Interval Independent variable,
  197.  so you have two OPTIONS: 1) break the Interval variable into categories and
  198.  treat it as Nominal, or 2) dichotomize the Dependent variable and treat it
  199.  as Interval.
  200.    If you choose OPTION 1, break the Independent variable into categories
  201.  that contain approximately equal numbers of cases.  Once this is done, the
  202.  appropriate statistics are those for two Nominal variables.
  203.     If the two Nominal variables are dichotomized, use the Phi Coefficient as
  204.  a measure of association.  If either or both of your Nominal variables has
  205.  3 or more categories, use Cramer's V, which is the same as Phi except that
  206.  it adjusts for the number categories.
  207.    If you choose OPTION 2, dichotomize the Dependent variable as close as
  208.  possible to the Median unless there is theoretical justification for using
  209.  another "high vs. low" cut-point.  The dichotomized Dependent variable may
  210.  now be assigned arbitrary scores of 0 for "low" and 1 for "high" and may,
  211.  within limits, be treated as an Interval scale.  Once this is done, you can
  212.  use the Linear Correlation Coefficient (Pearson's r and r-squared) to index
  213.  the strength and direction of the relationship.  But if your problem calls
  214.  for regression statistics, Linear Regression may not be appropriate: with a
  215.  dichotomous Dependent variable some predicted (Y') scores may have impossi-
  216.  ble values (less than 0 or greater than 1).  If these impossible values are
  217.  numerous or if they will cause problems in interpreting your results, use
  218.  Logistic Regression instead.
  219. *D-BIVAR-RANK/NOM,A
  220.     There is no statistic specifically designed to measure the association
  221.  between an Ordinal Dependent variable and a Nominal Independent variable.
  222.  Your only choice is to break the Ordinal variable into categories and treat
  223.  it as Nominal.  If you dichotomize it, select a cut-point as close to the
  224.  Median as possible; if you break it into 3 or more categories, select cut-
  225.  points that yield approximately equal frequencies across categories.  Once
  226.  the Ordinal variable is categorized, the appropriate statistics are those
  227.  for two Nominal variables.
  228.     If the two Nominal variables are dichotomized, use the Phi Coefficient as
  229.  a measure of association.  If either or both of your Nominal variables has
  230.  3 or more categories, use Cramer's V, which is the same as Phi except that
  231.  it adjusts for the number categories.
  232. *D-BIVAR-RANK/RANK,A
  233.    If both variables are in the form of ranks, you can proceed to compute one
  234.  of the measures of association noted below.  Otherwise, you must transform
  235.  them to ranks before proceeding.
  236.    Spearman's Rho is the best known measure of association for two Ordinal
  237.  variables and, because it is simply the Linear Correlation Coefficient
  238.  (Pearson's r) applied to ranks, it is often interpreted as an approximate
  239.  index of linear correlation.  The "correction for ties" should be applied
  240.  to Rho, but it has little effect if fewer than 30% of the cases are tied.
  241.    In some fields the preferred statistic is Kendall's Tau, which, unlike
  242.  Spearman's Rho, does not involve any arithmetical operations that assume
  243.  an underlying Interval Scale.  This statistic is sometimes referred to as
  244.  "Tau-A" to distinguish it from modified forms ("Tau-B" and "Tau-C) that are
  245.  applied to "ordered contingency tables."  The computing formulas for Tau-A
  246.  found in most texts incorporate a correction for tied ranks.
  247. *D-BIVAR-RANK/PART,A
  248.     There is no statistic specifically designed to measure the association
  249.  between a "true" Ordinal Dependent variable and a "partially ordered" ind-
  250.  ependent variable.  Your best choice is to break the Dependent variable into
  251.  ordered categories and treat both variables as "partially ordered."  Prior
  252.  to computations, copy the data into a contingency table in which rows are
  253.  categories of the Dependent variable and columns are categories of the
  254.  Independent variable.  Use one of the following measures of association:
  255.     The best statistic for most ordered contingency tables is a modified form
  256.  of Kendall's Tau: use Tau-B if the number of rows in the table equals the
  257.  number of columns; use Tau-C if the table is not "square."
  258. *D-BIVAR-RANK/INT,A
  259.     There is no statistic specifically designed to measure the association
  260.  between an Ordinal Dependent variable and an Interval Independent variable.
  261.  If you can't assume that the Dependent variable is Interval, you'll have to
  262.  "downgrade" the Independent variable and treat it as an Ordinal scale.  If
  263.  you can transform it to ranks, do so, and apply one of the measures of
  264.  association recommended below.  [If it is so grouped that it can only be
  265.  transformed into a set of ordered categories, go back thru WATSTAT's Choice
  266.  Boxes and pick Option 3, "Ordered Categories," as the Level of Measurement
  267.  for the Independent variable.]
  268.    Spearman's Rho is the best known measure of association for two Ordinal
  269.  variables and, because it is simply the Linear Correlation Coefficient
  270.  (Pearson's r) applied to ranks, it is often interpreted as an approximate
  271.  index of linear correlation.  The "correction for ties" should be applied to
  272.  Rho, but it has little effect if fewer than 30% of the cases are tied.
  273.    In some fields the preferred statistic is Kendall's Tau, which, unlike
  274.  Spearman's Rho, does not involve any arithmetical operations that assume
  275.  an underlying Interval Scale.  This statistic is sometimes referred to as
  276.  "Tau-A" to distinguish it from modified forms ("Tau-B" and "Tau-C) that are
  277.  applied to "ordered contingency tables."  The computing formulas for Tau-A
  278.  found in most texts incorporate a correction for tied ranks.
  279. *D-BIVAR-PART/NOM,A
  280.     There is no statistic specifically designed to measure the association
  281.  between a set of ordered categories and a Nominal Independent variable, and
  282.  your only option is to "downgrade" the Dependent variable to the Nominal
  283.  level.  For two Nominal variables the following recommendations apply.
  284.     If the two Nominal variables are dichotomized, use the Phi Coefficient as
  285.  a measure of association.  If either or both of your Nominal variables has
  286.  3 or more categories, use Cramer's V, which is the same as Phi except that
  287.  it adjusts for the number categories.
  288. *D-BIVAR-PART/RANK,A
  289.     There is no statistic specifically designed to measure the association
  290.  between a "partially ordered" Dependent variable and a "true" Ordinal ind-
  291.  ependent variable.  Your best choice is to break the Independent variable
  292.  into ordered categories and treat both variables as "partially ordered."
  293.  Prior to computations, copy the data into a contingency table in which rows
  294.  are categories of the Dependent variable and columns are categories of the
  295.  Independent variable.  Use one of the following measures of association:
  296.     The best statistic for most ordered contingency tables is a modified form
  297.  of Kendall's Tau: use Tau-B if the number of rows in the table equals the
  298.  number of columns; use Tau-C if the table is not "square."
  299. *D-BIVAR-PART/PART,A
  300.     Prior to computations, copy the data into a contingency table in which
  301.  rows are categories of the Dependent variable and columns are categories of
  302.  the Independent variable.  Use one of the following measures of association:
  303.     The best statistic for most ordered contingency tables is a modified form
  304.  of Kendall's Tau: use Tau-B if the number of rows in the table equals the
  305.  number of columns; use Tau-C if the table is not "square."
  306. *D-BIVAR-PART/INT,A
  307.     There is no statistic specifically designed to measure the association
  308.  between a "partially ordered" Dependent variable and an Interval Independent
  309.  variable.  The best alternative is to break the Independent variable into
  310.  ordered categories and treat both variables as "partially ordered."  Prior
  311.  to your computations, copy the data into a contingency table in which rows
  312.  are categories of the Dependent variable and columns are categories of the
  313.  Independent variable.  Then use one of the following indices of association:
  314.     The best statistic for most ordered contingency tables is a modified form
  315.  of Kendall's Tau: use Tau-B if the number of rows in the table equals the
  316.  number of columns; use Tau-C if the table is not "square."
  317. *D-BIVAR-INT/NOM,A
  318.     The preferred measure of association for an Interval Dependent variable
  319.  and a Nominal Independent variable is the Correlation Ratio (Eta).  The Eta
  320.  statistic indexes the strength of a relationship of any form, including
  321.  non-monotonic (e.g., U-shaped).  Eta-Squared is commonly reported instead of
  322.  Eta, since it has a more meaningful interpretation: it measures the propor-
  323.  tion of variance in the Dependent variable explained by the categories of
  324.  the Independent variable.
  325. *D-BIVAR-INT/RANK,A
  326.     There is no statistic specifically designed to measure the association
  327.  between an Interval Dependent variable and an Ordinal Independent variable.
  328.  If you can't assume that Independent variable is Interval, you'll have to
  329.  "downgrade" the Dependent variable and treat it as an Ordinal scale.  If
  330.  you can transform it to ranks, do so, and apply one of the measures of
  331.  association recommended below.  [If it is so grouped that it can only be
  332.  transformed into a set of ordered categories, go back thru WATSTAT's Choice
  333.  Boxes and pick Option 3, "Ordered Categories," as the Level of Measurement
  334.  for the Dependent variable.]
  335.    Spearman's Rho is the best known measure of association for two Ordinal
  336.  variables and, because it is simply the Linear Correlation Coefficient
  337.  (Pearson's r) applied to ranks, it is often interpreted as an approximate
  338.  index of linear correlation.  The "correction for ties" should be applied
  339.  to Rho, but it has little effect if fewer than 30% of the cases are tied.
  340.    In some fields the preferred statistic is Kendall's Tau, which, unlike
  341.  Spearman's Rho, does not involve any arithmetical operations that assume
  342.  an underlying Interval Scale.  This statistic is sometimes referred to as
  343.  "Tau-A" to distinguish it from modified forms ("Tau-B" and "Tau-C) that are
  344.  applied to "ordered contingency tables."  The computing formulas for Tau-A
  345.  found in most texts incorporate a correction for tied ranks.
  346. *D-BIVAR-INT/PART,A
  347.     There is no statistic specifically designed to measure the association
  348.  between an Interval Dependent variable and a "partially ordered" Independent
  349.  variable, so you have 2 OPTIONS: 1) "downgrade" the Dependent variable by
  350.  breaking it into ordered categories, or 2) "downgrade" the Independent vari-
  351.  able to a Nominal scale.  OPTION 2 is the best choice if you're interested
  352.  mainly in the strength of the relationship, but since the Independent vari-
  353.  able is assumed to be merely Nominal, you won't be unable to determine the
  354.  direction (+/-) of the relationship.
  355.     If you choose OPTION 1, you should break the Dependent variable into cat-
  356.  egories that contain approximately equal numbers of cases.  Copy the data
  357.  into a contingency table in which rows are categories of the Dependent vari-
  358.  able and columns are categories of the Independent variable.  Then compute
  359.  one of the following indices recommended for ordered contingency tables.
  360.     The best statistic for most ordered contingency tables is a modified form
  361.  of Kendall's Tau: use Tau-B if the number of rows in the table equals the
  362.  number of columns; use Tau-C if the table is not "square."
  363.     If you choose OPTION 2, every category of the Independent variable MUST
  364.  contain at least 2 cases (preferably more), so you might have to collapse
  365.  some sparse categories.  However, categories should not be collapsed without
  366.  restraint: it is also desirable to have as many categories as possible.
  367.     The preferred measure of association for an Interval Dependent variable
  368.  and a Nominal Independent variable is the Correlation Ratio (Eta).  The Eta
  369.  statistic indexes the strength of a relationship of any form, including
  370.  non-monotonic (e.g., U-shaped).  The square of the Eta (Eta-Squared) is
  371.  commonly reported instead of Eta, since it has a more meaningful interpret-
  372.  ation: it measures the proportion of variance in the Dependent variable
  373.  explained by the categories of the Independent variable.
  374. *D-BIVAR-INT/INT,A
  375.     In most situations the preferred index of association for two Interval
  376.  variables is the Linear Correlation Coefficient, also called Pearson's r.
  377.  The square of the r statistic, known as the Coefficient of Determination, is
  378.  often reported along with r, because it measures the proportion of variance
  379.  in one variable explained by the other.
  380.     If you're interested in predicting or estimating scores on the Dependent
  381.  variable from those on the Independent variable, you should compute the
  382.  Linear Regression statistics: the Regression Coefficient, the Y-Intercept,
  383.  and the Standard Error of Estimate.
  384.     If you suspect that the relationship departs markedly from linearity, so
  385.  that Pearson's r underestimates its "true" strength, you can use the Correl-
  386.  ation Ratio (Eta) instead.  This will require breaking the Independent vari-
  387.  able into a set of categories, preferably in such a way that 5 or more cases
  388.  fall in each category.  Eta indexes the strength of a relationship of any
  389.  form, including those which are non-monotonic (e.g., U-shaped).  Eta-squared
  390.  is commonly reported instead of Eta, because it has a more meaningful inter-
  391.  pretation: it measures the proportion of variance in the Dependent variable
  392.  explained by the categories of the Independent variable.
  393. *D-BIVAR-DICH/NOM,A
  394.     Even if your dichotomous Dependent variable is Ordinal or Interval, it is
  395.  probably best to treat it as Nominal, like your Independent variable, and
  396.  use a measure of association for two Nominal variables.
  397.     If the two Nominal variables are dichotomized, use the Phi Coefficient as
  398.  a measure of association.  If either or both of your Nominal variables has
  399.  3 or more categories, use Cramer's V, which is the same as Phi except that
  400.  it adjusts for the number categories.
  401. *D-BIVAR-DICH/RANK,A
  402.     There is no statistic specifically designed to measure the association
  403.  between a dichotomous Dependent variable and an Ordinal Independent vari-
  404.  able.  You'll first have to break the Independent variable into categories
  405.  and then you'll have 2 OPTIONS: 1) assume the Dependent variable is Ordinal
  406.  and use a measure of association for two "partially ordered" variables, or
  407.  2) assume that both variables are merely Nominal and use a measure for two
  408.  Nominal variables.  Option 1 is usually preferable, but choose Option 2 if
  409.  it makes no sense to treat the dichotomous Dependent variable as Ordinal.
  410.     If you choose Option 1, copy the data into an ordered contingency table
  411.  and compute one of the following:
  412.     The best statistic for most ordered contingency tables is a modified form
  413.  of Kendall's Tau: use Tau-B if the number of rows in the table equals the
  414.  number of columns; use Tau-C if the table is not "square."
  415.     If you choose Option 2, copy the data into a contingency table, making no
  416.  assumption about the order of rows & columns.  Then use one of the following
  417.  measures appropriate for two Nominal scales:
  418.     If the two Nominal variables are dichotomized, use the Phi Coefficient as
  419.  a measure of association.  If either or both of your Nominal variables has
  420.  3 or more categories, use Cramer's V, which is the same as Phi except that
  421.  it adjusts for the number categories.
  422. *D-BIVAR-DICH/PART,A
  423.     With a dichotomous Dependent variable and a "partially ordered" independ-
  424.  ent variable, you have 2 OPTIONS: 1) assume the Dependent variable is also
  425.  Ordinal and use a measure of association for two "partially ordered" vari-
  426.  ables, or 2) assume the Independent variable is only Nominal and use a meas-
  427.  ure of association for two Nominal variables.  Option 1 is usually better.
  428.     If you choose Option 1, copy the data into an ordered contingency table
  429.  and compute one of the following:
  430.     The best statistic for most ordered contingency tables is a modified form
  431.  of Kendall's Tau: use Tau-B if the number of rows in the table equals the
  432.  number of columns; use Tau-C if the table is not "square."
  433.     If you choose Option 2, copy the data into a contingency table, making no
  434.  assumption about the order of rows & columns.  Then use one of the following
  435.  measures appropriate for two Nominal scales:
  436.     If the two Nominal variables are dichotomized, use the Phi Coefficient as
  437.  a  measure of association.  If either or both of your Nominal variables has
  438.  3 or more categories, use Cramer's V, which is the same as Phi except that
  439.  it adjusts for the number categories.
  440. *D-BIVAR-DICH/INT,A
  441.    With a dichotomous Dependent variable and an Interval Independent vari-
  442.  able, you have 2 OPTIONS: 1) assume that the dichotomy is an Interval vari-
  443.  able, or 2) "downgrade" the Independent variable to the Nominal level.  For
  444.  Option 1, which is usually preferable, you'd use a measure of association
  445.  for two Interval variables.  For Option 2, you'd first break the Independent
  446.  variable into categories and use a measure of association for two Nominal
  447.  variables.
  448.    If you choose OPTION 1, assign arbitrary scores of 0 (low) and 1 (high)
  449.  to categories of the Dependent variable.  Then use the Linear Correlation
  450.  Coefficient (Pearson's r and r-squared) to measure the strength and direc-
  451.  tion (+/-) of the relationship.  If you're mainly interested in predicting
  452.  Dependent variable scores from those on the Independent variable, compute
  453.  regression statistics (Regression Coefficient, Y-Intercept, & Standard Error
  454.  of Estimate).  But note that Linear Regression may not be appropriate: with
  455.  a dichotomous Dependent variable, some scores predicted from the regression
  456.  equation (Y'= A+bx) may have impossible values (i.e., less than 0 or greater
  457.  than 1).  If there are many impossible values or if they will cause problems
  458.  in interpreting your results, use Logistic Regression instead.
  459.     If you take OPTION 2, divide the Independent variable into categories
  460.  that contain about the same number of cases and use one of the following:
  461.     If the two Nominal variables are dichotomized, use the Phi Coefficient as
  462.  a measure of association.  If either or both of your Nominal variables has
  463.  3 or more categories, use Cramer's V, which is the same as Phi except that
  464.  it adjusts for the number categories.
  465. *D-MUL-SMALL-INT,A
  466.  WARNING: The SAMPLE SIZE you specified may be TOO SMALL to support the type
  467.  of multivariate procedure(s) WATSTAT recommended.  As a practical rule of
  468.  thumb you should have a minimum of about 10 cases for each variable in such
  469.  procedures.  To meet this criterion you may have to drop some variables from
  470.  the analysis.  If you can't drop enough to approach the 10-case-per-variable
  471.  criterion, you shouldn't use the above procedure(s).
  472. *D-MUL-SMALL-NOM,A
  473.  WARNING: The SAMPLE SIZE you specified may be TOO SMALL to use Multivariate
  474.  Procedures for Nominal Variables, of the sort recommended.  Computations for
  475.  such methods are based on cross-tabulations, and as the number of variables
  476.  (& categories) increases, cell frequencies can become too sparse to support
  477.  the analysis.  You may need to drop some variables from the analysis and/or
  478.  collapse variables into fewer categories.
  479. *D-MUL-1DEP-NOM/NOM,A
  480.     The recommended procedure (and the only one available) for measuring the
  481.  association between a Nominal-level Dependent and a set of Nominal independ-
  482.  ent variables is Log-Linear Analysis.  In most cases, this procedure will
  483.  require the use of a computer and many popular statistical software packages
  484.  can run it.  A good deal of statistical sophistication is required to apply
  485.  it and to interpret its results.  Log-Linear Analysis may not be widely used
  486.  in your field and, if not, the task of reporting your results will be some-
  487.  what more difficult.  The use of Log-linear Analysis is also limited by the
  488.  substantial sample size it usually requires.
  489.     However, no alternative procedure is applicable unless you're willing to
  490.  dichotomize the Dependent variable (so it can be scored 0/1 and treated as
  491.  Interval) and to transform all the Independent variables and also treat them
  492.  as Interval.  The latter step would involve either: 1) dichotomizing each
  493.  Independent variable and assigning "0" & "1" scores to its categories; or
  494.  2) creating a set of "dummy variables" (each scored 0/1) to represent its
  495.  categories.  After these transformations, you can apply either Logistic
  496.  Regression or Discriminant Analysis.  For more info about these procedures,
  497.  return to WATSTAT's Choice Boxes and specify "Dichotomous" for the depen-
  498.  dent (Box 5) variable & "Interval" for the Independent (Box 6) variables.
  499. *D-MUL-1DEP-NOM/INT,A
  500.     The only procedure designed to assess the association between a Nominal
  501.  Dependent & a set of Interval Independent variables is Discriminant Analysis.
  502.  This procedure does not produce a single index (analogous to a correlation
  503.  coefficient), but instead yields a set of prediction equations, called
  504.  "Discriminant Functions," the interpretation of which requires a good deal
  505.  of statistical expertise.  Computations must be done by computer and most
  506.  statistical software packages include Discriminant Analysis routines.
  507.     Interpretation of results is considerably simpler if the Dependent vari-
  508.  able is dichotomized, but if this is done, Logistic Regression and Multiple
  509.  Correlation/Regression would also be applicable and perhaps preferable.
  510. *D-MUL-1DEP-NOM/MIXIO,A
  511.     There is no procedure available to measure association between a Nominal
  512.  Dependent variable and Independent variables with "mixed" levels of measure-
  513.  ment, so you'll need to transform one or more Independent variables to make
  514.  them all either Nominal or Interval.  In the former case, you'd simply break
  515.  your Interval or Ordinal variables into categories and proceed as if they
  516.  were Nominal.  In the latter, you'd transform each Ordinal or Nominal inde-
  517.  pendent variable to Interval by either: 1) dichotomizing it and assigning
  518.  scores of "0" and "1" to its categories; or 2) breaking it into categories
  519.  and creating a set of "dummy variables" (each scored 0/1) to represent its
  520.  categories.
  521.     If all Independent variables are Nominal, Log-Linear Analysis may be
  522.  used.  For more info about Log-Linear Analysis, return to WATSTAT's Choice
  523.  Boxes and specify "Nominal" measurement for both the Dependent (Box 5) and
  524.  the Independent (Box 6) variables.
  525.     If all Independent variables are Interval (including dichotomies and
  526.  dummy variables), you can use Discriminant Analysis.  For more info about
  527.  Discriminant Analysis, return to WATSTAT's Choice Boxes and specify
  528.  "Nominal" for the Dependent (Box 5) and "Interval" for the Independent
  529.  (Box 6) variables.
  530. *D-MUL-1DEP-NOM/ORD,A
  531.     There is no procedure available to measure association between a Nominal
  532.  Dependent variable and Ordinal Independent variables.  Your best alternative
  533.  is to categorize the Ordinal variables and treat them as Nominal; then you
  534.  can use Log-Linear Analysis.  For more information on Log-Linear Analysis,
  535.  return to WATSTAT's Choice Boxes and specify "Nominal" measurement for both
  536.  the Dependent (Box 5) and the Independent (Box 6) variables.
  537. *D-MUL-1DEP-ORD/ALL,A
  538.     There is no multivariate procedure designed to measure the association
  539.  between an Ordinal Dependent variable and a set of 2 or more Independent
  540.  variables.  However, if you transform the Dependent variable (and perhaps
  541.  the Independent variables) a number of alternatives may be applicable.
  542.  You have 2 basic OPTIONS: 1) dichotomize the Dependent variable and treat
  543.  it as Interval, or 2) break the Dependent variable into 2 or more categories
  544.  and treat it as Nominal.  OPTION 1 is preferable as long as it makes sense
  545.  to dichotomize the Dependent variable.
  546.     If you take OPTION 1, you can use either Multiple Regression/Correlation
  547.  or Logistic Regression, BUT to do so all your Independent variables must
  548.  also be Interval or Dichotomies (i.e., Nominal and Ordinal Independent vari-
  549.  ables must be dichotomized or represented as sets of "dummy variables").
  550.  For more info about Multiple Regression/Correlation, return to WATSTAT's
  551.  Choice Boxes and choose "Interval" measurement for both the Dependent vari-
  552.  able (Box 5) and the Independent (Box 6) variable.  For more information on
  553.  Logistic Regression, specify "Dichotomy" (Box 5) and "Interval" (Box 6).
  554.     With OPTION 2, you can use either Discriminant Analysis or Log-Linear
  555.  Analysis.  To use Discriminant Analysis, all Independent variables must be
  556.  Interval (i.e., Nominal & Ordinal Independent variables must be dichotomized
  557.  or represented as sets of "dummy variables").  With Log-Linear Analysis, all
  558.  Independent variables must be Nominal (i.e., Ordinal & Interval variables
  559.  must be represented as sets of 2 or more Nominal categories).  For more info
  560.  about Discriminant Analysis, return to WATSTAT's Choice Boxes and specify
  561.  "Nominal" for the Dependent (Box 5) and "Interval" for the Independent
  562.  variables.  For more info about Log-Linear Analysis, specify "Nominal" for
  563.  both Dependent (Box 5) and Independent (Box 6) variables.
  564. *D-MUL-1DEP-INT/INT,A
  565.     If your Dependent variable is Interval and all your Independent variables
  566.  are also Interval (or dichotomies) your best choice is Multiple Regression/
  567.  Correlation.  Use the Multiple Correlation statistics (R and R-Squared) to
  568.  index the strength of the relation between the Dependent variable and all
  569.  the Independent variables jointly.  Use the Regression Coefficients (b)
  570.  to index the effect of each Independent variable and use the Standard Error
  571.  of Estimate to index the precision with which the set of Independent vari-
  572.  ables predict (estimate) scores on the Dependent variable.
  573. *D-MUL-1DEP-INT/OTHER,A
  574.     There is no multivariate procedure designed to relate an Interval depend-
  575.  ent variable with Nominal or Ordinal Independent variables.  However, after
  576.  some simple transformations, you can treat Nominal and Ordinal variables as
  577.  if they were Interval and use Multiple Correlation/Regression procedures.
  578.     Dichotomous Independent variables (scored 1/0) can be treated as Interval
  579.  in these procedures and you can dichotomize whenever it makes sense to treat
  580.  a Nominal variable as "present" vs. "absent" (1 vs. 0) or an Ordinal vari-
  581.  able as "high" vs. "low" (1 vs. 0).  However, it is often desirable to pre-
  582.  serve a more detailed representation of Nominal & Ordinal variables: this
  583.  can be done by dividing them into categories and using a SET of dichotomous
  584.  variables, called "dummy variables," to represent the categories.
  585.     Use the Multiple Correlation statistics (R and R-Squared) to index the
  586.  strength of the relation between the Dependent variable and all the indepen-
  587.  dent variables operating jointly.  Use the Regression Coefficients (b-values)
  588.  to index the effect of each Independent variable and use the Standard Error
  589.  of Estimate to index the precision with which the set of Independent vari-
  590.  ables predicts (estimates) scores on the Dependent variable.
  591. *D-MUL-1DEP-DICH/NOM,A
  592.     Log-Linear Analysis is specifically designed to assess association
  593.  between a Nominal Dependent variable and a set of Nominal Independent vari-
  594.  ables.  The fact that your Dependent variable is dichotomous presents no
  595.  problems, as long as it makes sense to treat it as a Nominal variable.
  596. *D-MUL-1DEP-DICH/ORD,A
  597.     There is no procedure designed to measure association between a dichoto-
  598.  mous Dependent variable and Ordinal Independent variables.  Your best alter-
  599.  native is to categorize the Ordinal variables and treat them as Nominal;
  600.  then you can use Log-Linear Analysis.  For more information about Log-Linear
  601.  Analysis, return to WATSTAT's Choice Boxes and specify "Nominal" measurement
  602.  for both Dependent (Box 5) and Independent (Box 6) variables.
  603. *D-MUL-1DEP-DICH/INT,A
  604.     Several multivariate procedures are potentially applicable if the depen-
  605.  dent variable is a dichotomy and all the Independent variables are Interval.
  606.  In order of preference, the available options include: Logistic Regression,
  607.  Discriminant Analysis, & Multiple Correlation/Regression.  Logistic Regress-
  608.  ion is almost certain to be applicable.  Discriminant Analysis is a good
  609.  alternative when category frequencies on the Dependent variable approach a
  610.  50%/50% split, but should not be used when the split is more extreme than
  611.  80%/20%.  Multiple Correlation/Regression is less generally applicable when
  612.  the Dependent variable is a dichotomy: although the Dependent variable is
  613.  scored 0 and 1 (for "low" & "high") some predicted (Y') scores may attain
  614.  impossible values (less than 0 or greater than 1).  If there are many impos-
  615.  sible values, or if such values will cause problems in interpreting your
  616.  results, Multiple (Linear) Correlation/Regression should NOT be used.
  617. *D-MUL-1DEP-DICH/MIXON,A
  618.     There is no procedure designed to measure association between a dichoto-
  619.  mous Dependent variable and "mixed" Ordinal/Nominal Independent variables.
  620.  Your best alternative is to categorize the Ordinal variables and treat them
  621.  as Nominal; then you can use Log-Linear Analysis, which assumes that all the
  622.  Independent variables are Nominal.  For more info about Log-Linear Analysis,
  623.  return to WATSTAT's Choice Boxes and specify "Nominal" measurement for both
  624.  Dependent (Box 5) and Independent (Box 6) variables.
  625. *D-MUL-1DEP-DICH/MIXIO,A
  626.     There is no procedure designed to measure association between a dichoto-
  627.  mous Dependent variable and Independent variables with "mixed" measurement
  628.  levels, so you'll need to transform one or more Independent variables to
  629.  make them ALL either Nominal or Interval.  In the former case, you'd simply
  630.  break any Interval or Ordinal variables into categories and proceed as if
  631.  they were Nominal.  In the latter, you'd transform each Ordinal or Nominal
  632.  Independent variable to Interval by either: 1) dichotomizing it and assign-
  633.  ing scores of "0" and "1" to its categories; or 2) breaking it into catego-
  634.  ries and creating a set of "dummy variables" (each scored 0/1) to represent
  635.  the categories.
  636.     If all Independent variables can be treated as Nominal, you can use
  637.  Log-Linear Analysis.  For more info about Log-Linear Analysis, return to
  638.  WATSTAT's Choice Boxes and specify "Nominal" measurement for both Dependent
  639.  (Box 5) and Independent (Box 6) variables.
  640.     If all Independent variables are Interval (including dichotomies and
  641.  dummy variables), you can use Logistic Regression or Discriminant Analysis.
  642.  For more info about these procedures, return to WATSTAT's Choice Boxes and
  643.  specify "Dichotomy" for the Dependent (Box 5) variable and "Interval" for
  644.  the Independent (Box 6) variables.
  645. *D-MUL-2DEP-INT/INT,A
  646.     Several multivariate procedures are potentially applicable when all your
  647.  variables are Interval and you're dealing with 2 or more Dependent variables
  648.  simultaneously. They include: Canonical Correlation; measures of association
  649.  derived from MANOVA; and various Structural Equation Modelling procedures,
  650.  e.g., LISREL and EQS.  All these assume advanced statistical training and
  651.  must be performed by computer.  Moreover, so much additional information is
  652.  needed to choose from these alternatives that WATSTAT cannot recommend a
  653.  "best" procedure here.
  654. *D-MUL-2DEP-INT/NOTINT,A
  655.     Several multivariate procedures are potentially applicable when you're
  656.  dealing with 2 or more Dependent variables simultaneously. They include:
  657.  Canonical Correlation, measures of association derived from MANOVA, and
  658.  various procedures for Structural Equation Modelling (e.g., LISREL and EQS).
  659.  However, all require advanced statistical training and must be performed by
  660.  computer.  Further, all assume Interval measurement for ALL variables, so
  661.  you won't be able to use them unless you drop "lower-level" variables or
  662.  transform them to sets of dummy variables.  Finally, so much additional
  663.  information is needed to choose from these alternatives that WATSTAT can't
  664.  recommend a "best" procedure here.
  665. *D-MUL-2DEP-NOTINT,A
  666.     Several multivariate procedures are potentially applicable when you're
  667.  dealing with 2 or more Dependent variables simultaneously. They include:
  668.  Canonical Correlation, measures of association derived from MANOVA, and
  669.  various procedures for Structural Equation Modelling (e.g., LISREL and EQS).
  670.  However, all require advanced statistical training and must be performed by
  671.  computer.  Further, all assume Interval measurement for ALL variables in the
  672.  analysis, so you probably won't be able to use them.  Finally, so much addi-
  673.  tional information is needed to choose from these alternatives that WATSTAT
  674.  can't recommend a "best" procedure here.
  675. *D-MUL-NODEP-INT,A
  676.     Factor Analysis is recommended for assessing relationships among several
  677.  Interval-level variables when there is no Dependent variable identified.
  678.  [Dichotomous variables, scored 0/1, may also be Factor Analyzed.]
  679.     There are many types of Factor Analysis and selecting the appropriate
  680.  type is too complicated for WATSTAT to handle: you'll need to consult a
  681.  specialized text on Factor Analysis.  Computations require a computer, and
  682.  most popular statistical packages offer a variety of Factor Analysis proce-
  683.  dures.  [The manuals for some of these packages are good sources of advice
  684.  on which type of Factor Analysis to apply.]
  685. *D-MUL-NODEP-RANK,A
  686.      Kendall's Coefficient of Concordance (Kendall's W) is designed to assess
  687.  relationships among 3 or more Ordinal variables when there is no Dependent
  688.  variable identified.  All variables must be transformed to RANKS if they are
  689.  not inherently in rank form.  The interpretation of Kendall's W is facili-
  690.  tated by its linear relationship to "Average Rho," i.e., the mean rank-order
  691.  correlation (Spearman' Rho) between all possible pairs of variables.
  692. *D-MUL-NODEP-NOTINT,A
  693.     Factor Analysis is the only widely-used procedure designed to assess
  694.  relationships among several variables when there is no Dependent variable
  695.  identified.  Unfortunately, this procedure assumes that all variables are
  696.  Interval, so you can't use it for your "lower level" variables.  However,
  697.  dichotomies (scored 0/1) may be treated as Interval here, so if you can
  698.  dichotomize your "lower level" variables, you can apply Factor Analysis.
  699. *S-UNI-NOM,A
  700.      Assuming only Nominal Measurement, the Chi-Square Goodness-of-Fit Test
  701.  may be used to test whether it's likely that your RANDOM SAMPLE came from a
  702.  POPULATION with an hypothesized proportion of cases in its various catego-
  703.  ries.  You specify the Population proportions (P) in the Null Hypothesis and
  704.  multiply each P by Sample Size to obtain EXPECTED FREQUENCIES for the test.
  705.  Within limits, you may specify any set of P's derived from theory or prior
  706.  knowledge of a relevant population.
  707.      If your variable is Dichotomous, the Binomial Test is preferable to the
  708.  Chi-Square Goodness-of-Fit, especially when sample size is small.  Use Exact
  709.  Binomial Tables for small sample sizes and the Normal Approximation (z-Test)
  710.  for larger (>25) samples.
  711. *S-UNI-RANK,A
  712.      In the special situation where "scores" or Ranks represent a SEQUENCE of
  713.  cases, the so-called "Test for Runs Up and Down" can be used to test for a
  714.  TREND, i.e., a tendency for scores to increase or decrease over a sequence.
  715.      If data are NOT SEQUENCED and NOT RANKED, your best alternative is to
  716.  categorize the data and to apply a test designed for "Partially Ordered"
  717.  data (One-Sample Kolmogorov-Smirnov Test) or Nominal data (Chi-Square
  718.  Goodness-of-Fit Test).  There is no Univariate test for UNSEQUENCED RANKS.
  719. *S-UNI-PART,A
  720.      The Kolmogorov-Smirnov One-Sample Test is recommended for a Categorized
  721.  Ordinal ("Partially Ordered") variable.  It tests the Null Hypothesis that
  722.  the random sample was drawn from a Population with some specified Proportion
  723.  of cases in the various categories: you specify these Proportions based on
  724.  theory or prior information about the Population.
  725. *S-UNI-INT,A
  726.      Use the One-Sample t-Test to determine whether it is likely that your
  727.  sample was DRAWN FROM A POPULATION WITH A KNOWN (or guessed) MEAN, which
  728.  you specify in the Null Hypothesis.  Besides requiring INTERVAL MEASUREMENT,
  729.  valid application of this test assumes the sample was drawn from a NORMALLY
  730.  DISTRIBUTED POPULATION.  Check to see that your data adequately meet these
  731.  assumptions: most intro. texts explain conditions under which they may be
  732.  relaxed.
  733.      If you're interested in estimating the MEAN of the POPULATION from which
  734.  your RANDOM SAMPLE was drawn, compute CONFIDENCE LIMITS FOR THE MEAN.
  735.      If you're interested in the SHAPE of your variable's distribution, use
  736.  the Chi-Square Goodness-of-Fit Test to see if it's likely that your SAMPLE
  737.  was drawn from a POPULATION with an hypothesized proportion of cases in its
  738.  various categories.  You specify the Population Proportions (P) in the NULL
  739.  Hypothesis and multiply each P by Sample N to get EXPECTED FREQUENCIES for
  740.  the test.  Within limits, you may hypothesize any set of P's derived from
  741.  theory or prior knowledge of a population.  If you get the P's from a table
  742.  of the Normal Distribution, you can use the Chi-Square Goodness-of-Fit Test
  743.  to see whether it's likely that your sample came from a NORMALLY DISTRIBUTED
  744.  POPULATION.
  745. *S-2SAMPLE-INT,A
  746.      Use Student's t-Test to compare TWO SUB-SAMPLE MEANS on an INTERVAL
  747.  DEPENDENT VARIABLE, where RANDOM SAMPLING or RANDOM ASSIGNMENT of cases has
  748.  yielded INDEPENDENT SUB-SAMPLES.  Valid application of this test assumes:
  749.  1) that sub-samples were drawn from two NORMALLY DISTRIBUTED POPULATIONS, &
  750.  2) that the two parent POPULATIONS have EQUAL VARIANCES.  Check to see that
  751.  your data approximate these assumptions: most intro. texts list conditions
  752.  under which these assumptions may be relaxed.  A special form of the t-test
  753.  is available in cases where population variances are unequal.
  754. *S-2MATCH-INT,A
  755.      Use the Matched-Pairs t-Test to compare TWO SUB-SAMPLE MEANS on an
  756.  INTERVAL DEPENDENT VARIABLE, where RANDOM SAMPLING or RANDOM ASSIGNMENT has
  757.  yielded MATCHED (dependent) SUB-SAMPLES.  Valid application of this test
  758.  assumes that sub-samples were drawn from 2 NORMALLY DISTRIBUTED POPULATIONS.
  759.  Check to see that your data approximate this assumption: most intro. texts
  760.  list conditions under which it may be relaxed.
  761. *ARCSINE,A
  762.      A number of tests are available for comparing 2 dichotomous sub-samples,
  763.  in cases where RANDOM SAMPLING OR RANDOM ASSIGNMENT has yielded INDEPENDENT
  764.  SUB-SAMPLES.  (They are listed in order of preference.) The Arcsine Test is
  765.  the preferred alternative, especially if sample size is small.  A Chi-Square
  766.  Contingency Test, with data cast in a 2-by-2 table, gives similar results
  767.  when sample size is large.  For smaller samples, Fisher's Exact may be used.
  768.  Special forms of the z-test and t-test, which test for DIFFERENCES IN PRO-
  769.  PORTIONS, are also applicable.  Consult a statistics text for the assump-
  770.  tions underlying each of these tests.
  771. *FISHER-EXACT,A
  772.      Fisher's Exact Test is usually the best alternative for detecting a
  773.  difference between INDEPENDENT SUB-SAMPLES when sample size is very small
  774.  and data can be cast in a 2-by-2 contingency table.  Fisher's Exact Test is
  775.  also used as an alternative to the Chi-Square Contingency Test when sample
  776.  size is too small to apply the latter: in such cases it is used to test for
  777.  the significance of an ASSOCIATION BETWEEN 2 DICHOTOMOUS NOMINAL VARIABLES.
  778.      Although not widely-known, Fisher's Exact Test can be extended to tables
  779.  larger than a 2-by-2: the only problem is finding a computer program that
  780.  calculates p-values for larger tables.
  781. *MCNEMAR,A
  782.      The McNemar Test is designed to compare a DICHOTOMOUS DEPENDENT VARIABLE
  783.  across 2 MATCHED SUB-SAMPLES.  The Dependent variable may be inherently
  784.  dichotomous or transformed to a dichotomy especially for the test. There is
  785.  NO TEST designed to compare a Dependent variable with 3 or more categories
  786.  across Matched Sub-Samples.
  787.      The McNemar Test assumes only Nominal Measurement, but if an Ordinal
  788.  Dependent variable is dichotomized at the Overall Median, it can be used as
  789.  a test for differences between Medians for MATCHED SAMPLES.
  790. *MEDIAN-TEST,A
  791.      The Median Test is designed to compare 2 INDEPENDENT SUB-SAMPLES when
  792.  the DEPENDENT VARIABLE is ORDINAL and when it is feasible to determine the
  793.  OVERALL MEDIAN OF THE TOTAL SAMPLE.  Although tests based on ranks are
  794.  preferable, the Median Test is a good alternative when data are "Partially
  795.  Ordered" or when sample size so large that it is infeasible to rank the data.
  796.  The Median Test is really a "transformation" rather than a distinct test:
  797.  data are cast in a 2-by-2 contingency table by breaking the Dependent vari-
  798.  able at the overall Median; then either the Chi-Square Contingency Test or
  799.  Fisher's Exact Test is applied, depending on sample size.
  800.      The Median Test can also be applied when there are 3 or More INDEPENDENT
  801.  SUB-SAMPLES.  In this case, the Dependent variable is again Dichotomized at
  802.  the OVERALL MEDIAN, but data are cast in a 2-by-k contingency table, where
  803.  k is the number of sub-samples.  Then the Chi-Square Contingency Test is
  804.  applied.
  805. *WILCOX-MATCH,A
  806.      The appropriate test for a difference between TWO MATCHED SUB-SAMPLES,
  807.  when the ORDINAL DEPENDENT VARIABLE is scored a RANKS, is the Wilcoxon
  808.  Matched-Pairs Test [sometimes called the Matched-Pairs Signed-Ranks Test].
  809. *WILCOX-RSUM,A
  810.      Two tests, the Wilcoxon Rank-Sum Test and the Mann-Whitney U-Test, can
  811.  be applied to test for a difference between TWO INDEPENDENT SUB-SAMPLES,
  812.  when the ORDINAL DEPENDENT VARIABLE is scored as RANKS.  These are really
  813.  two forms of the same test and yield exactly the same p-values.  Although
  814.  the Mann-Whitney is more widely used, the Wilcoxon Rank-Sum Test is much
  815.  easier to compute and interpret and, therefore, preferable.  [Don't confuse
  816.  this Rank-Sum Test with Wilcoxon's Matched-Pairs Test, which is used for
  817.  DEPENDENT SUB-SAMPLES.]
  818. *ONEWAY,A
  819.      The appropriate significance test for differences between Means of three
  820.  or more INDEPENDENT SUB-SAMPLES is the so-called "ONE-WAY ANOVA F-TEST."
  821.  This is an "overall" test: it detects differences between pairs or combina-
  822.  tions of sub-samples, but it can't specify which sub-samples differ.  Thus,
  823.  it must be followed by more specific tests, called CONTRASTS, to pinpoint
  824.  which sub-samples differ.  Besides assuming INDEPENDENT SUB-SAMPLES and
  825.  INTERVAL MEASUREMENT, this F-Test assumes that sub-samples were drawn from
  826.  NORMALLY DISTRIBUTED POPULATIONS that have EQUAL VARIANCES.  Check to see
  827.  that your data approximate all these assumptions: most intro. texts specify
  828.  conditions under which they may be relaxed.  Consult a specialized text on
  829.  Analysis of Variance (ANOVA) for help in selecting a test for CONTRASTS
  830.  following the overall F-Test.  [Usually, the Duncan Multiple-Range Test is
  831.  best for Contrasts between PAIRS of sub-samples and the Scheffe Test best
  832.  for Contrasts between GROUPS of sub-samples, but there are many other alter-
  833.  natives that may be preferable in your case.]
  834. *TWOWAY,A
  835.      The best significance test for differences between Means of 3 or more
  836.  MATCHED SUB-SAMPLES is ANALYSIS OF VARIANCE F-TEST FOR RANDOMIZED BLOCKS,
  837.  which is sometimes loosely called "TWO-WAY" ANOVA.  In this design, "Blocks"
  838.  may be individual cases or sets of matched cases, which are represented in
  839.  all the sub-samples.  Blocks are used to "control" extraneous between-case
  840.  variation.  When individual cases appear in all the sub-samples, the design
  841.  is referred to as a RANDOMIZED BLOCKS DESIGN WITH REPEATED MEASURES.
  842.      The F-Test is an "overall" test: it detects differences between pairs or
  843.  combinations of sub-samples, but it can't specify which sub-samples differ.
  844.  Thus, it must be followed by more specific tests, called CONTRASTS, to pin-
  845.  point which sub-samples differ.  Besides assuming INTERVAL MEASUREMENT, this
  846.  F-Test assumes that sub-samples were drawn from NORMALLY DISTRIBUTED POPULA-
  847.  TIONS that have EQUAL VARIANCES.  Check to see that your data approximate
  848.  all these assumptions.  Specialized texts on Analysis of Variance (ANOVA)
  849.  usually contain extensive explanations of underlying assumptions and also
  850.  offer help in selecting a test for CONTRASTS following the overall F-Test.
  851. *CR-FACTORIAL,A
  852.      ANALYSIS OF VARIANCE with a COMPLETELY RANDOMIZED FACTORIAL (CRF) design
  853.  is the best alternative when you have: an 1) INTERVAL DEPENDENT VARIABLE,
  854.  2) TWO OR MORE COMPARISON VARIABLES, and 3) NO MATCHING of cases across
  855.  sub-samples of any Comparison Variable. [The last condition implies that
  856.  each case appears in the analysis one and only one time.]
  857.      The CRF design yields an F-Test for each Comparison Variable and also
  858.  for INTERACTION EFFECTS due to sets of these variables.  The F-Tests are
  859.  "overall" tests: they detect differences between pairs or combinations of
  860.  sub-samples, but don't specify which sub-samples differ.  Thus, they must
  861.  be followed by more specific tests, called CONTRASTS, to pinpoint which
  862.  sub-samples differ.  Besides INTERVAL MEASUREMENT, the F-Tests assume that
  863.  the sub-samples were drawn from NORMALLY DISTRIBUTED POPULATIONS that have
  864.  EQUAL VARIANCES.  Check to see that your data approximate all these assump-
  865.  tions.  Specialized texts on Analysis of Variance usually contain extensive
  866.  explanations of underlying assumptions and the conditions under which they
  867.  may be relaxed.  Only a few offer help in selecting the most appropriate
  868.  test for CONTRASTS in CRF Designs.
  869. *RB-FACTORIAL,A
  870.      ANALYSIS OF VARIANCE with a RANDOMIZED BLOCKS FACTORIAL (RBF) design is
  871.  the best alternative if you have: an 1) INTERVAL DEPENDENT VARIABLE, 2) TWO
  872.  OR MORE COMPARISON VARIABLES, and 3) MATCHED CASES or OBSERVATIONS across
  873.  sub-samples of one or more Comparison Variables.  In this design, "Blocks"
  874.  may be individual cases or sets of matched cases, which are represented in
  875.  all the sub-samples of a Comparison Variable.  Blocks are used to "control"
  876.  extraneous between-case variation.  When individual cases appear in all the
  877.  sub-samples of any Comparison Variable, the design is referred to as a
  878.  RANDOMIZED BLOCKS FACTORIAL DESIGN WITH REPEATED MEASURES.  When the Blocks
  879.  are split into "Sub-Blocks" on one or more "Blocking Variables" the design
  880.  is referred to as a SPLIT-PLOT DESIGN.
  881.      The RBF design yields an F-Test for each Comparison Variable and also
  882.  for INTERACTION EFFECTS due to sets of these variables.  The F-Tests are
  883.  "overall" tests: they detect differences between pairs or combinations of
  884.  sub-samples, but don't specify which sub-samples differ.  Thus, they must
  885.  be followed by more specific tests, called CONTRASTS, to pinpoint which of
  886.  the sub-samples differ.  Besides INTERVAL MEASUREMENT, the F-Tests assume
  887.  that sub-samples were drawn from NORMALLY DISTRIBUTED POPULATIONS that have
  888.  EQUAL VARIANCES.  Check to see that your data approximate all these assump-
  889.  tions.  Specialized texts on Analysis of Variance usually contain extensive
  890.  explanations of underlying assumptions and the conditions under which they
  891.  may be relaxed.  Only a few offer help in selecting the most appropriate
  892.  test for CONTRASTS in RBF or Split-Plot Designs.
  893. *ANOVA/REGN,A
  894.  [Traditional ANOVA computations for the above design require EQUAL FREQUEN-
  895.  CIES in all the cells created when the sample is split by 2 or more Compar-
  896.  ison Variables.  If cell frequencies are unequal, F-Ratios can be obtained
  897.  through Multiple Regression procedures, of which ANOVA is a special case.
  898.  Most computer programs use Multiple Regression for all ANOVA problems, but
  899.  hide this fact by reporting results in a conventional ANOVA Summary Table.]
  900. *ANCOVA,A
  901.      If you have one or more Independent variables that you wish to "control"
  902.  or "adjust for" without building them in as Comparison Variables, you can
  903.  apply ANALYSIS OF COVARIANCE (ANCOVA) procedures.  ANCOVA is an extension of
  904.  ANOVA in which the effects of one or more INTERVAL-LEVEL INDEPENDENT VARI-
  905.  ABLES are "partialled out," through Multiple Regression procedures, before
  906.  F-Ratios are computed for the major Comparison Variables.  Normally, vari-
  907.  ables are selected for such adjustment because they create "extraneous"
  908.  variation in the Dependent Variable and can't be eliminated physically.
  909.  ANCOVA usually requires a computer and most popular statistical packages
  910.  can perform it.  To use ANCOVA, you must meet all the assumptions of ANOVA
  911.  and Multiple Regression, plus some additional ones unique to this procedure.
  912.  Specialized texts on Analysis of Variance usually explain all these assump-
  913.  tions and the conditions under which they may be relaxed.
  914. *MANOVA,A
  915.      MULTIVARIATE ANALYSIS OF VARIANCE (MANOVA) is an extension of ANOVA
  916.  designed to handle two or more INTERVAL-LEVEL DEPENDENT VARIABLES simulta-
  917.  neously.  The application of MANOVA and the interpretation of its results
  918.  requires advanced statistical training.  If you lack such expertise, and if
  919.  your theory demands MANOVA, it would be wise to seek help from a statistical
  920.  consultant before attempting to apply it.  It may be wiser yet to choose a
  921.  procedure that can be applied in separate analyses for each Dependent vari-
  922.  able.  If the latter alternative is feasible, WATSTAT may be able to offer
  923.  more help: return to the Choice Boxes and select "Multivariate with ONE
  924.  Dependent Variable" in Box 4.
  925. *CHI-LOGIST,A
  926.      Significance tests associated with Logistic Regression PARALLEL those
  927.  used with Linear Multiple Regression: there are tests for overall fit of
  928.  the equation as well as for individual Regression Coefficients.  However,
  929.  as Logistic Regression is based on a different equation-fitting criterion,
  930.  neither the tests nor their interpretations are IDENTICAL to their Linear
  931.  counterparts.  Logistic Regression also has its own set of assumptions and
  932.  limitations, which you'll need to consider.
  933. *CHI-COMP-NOM,A
  934.      Use the Chi-Square Contingency Test to determine whether it is likely
  935.  that your RANDOM SAMPLE was drawn from a set of Sub-Populations (correspond-
  936.  ing to your Sub-Samples) that have the same proportion of cases in the
  937.  various categories of the Dependent Variable.  [Chi-Square must be computed
  938.  on RAW FREQUENCIES: don't make the common beginner's error of computing it
  939.  from a table of Percentages or Proportions.]
  940. *CHI-PHI,A
  941.      The appropriate significance test for the Phi Coefficient or Cramer's V
  942.  is the Chi-square Contingency Test.  Fisher's Exact Test may be used as a
  943.  test for Phi if sample size is too small for the Chi-Square Test.
  944. *TTEST-BIV-R,A
  945.      A special t-Test or F-Test is used to test for the significance of the
  946.  Correlation Coefficient (r) or the Regression Coefficient (b).  In the bi-
  947.  variate case, t and F Tests yield exactly the same p-values and tests for
  948.  r and b are equivalent.  Besides requiring INTERVAL MEASUREMENT, these tests
  949.  assume BIVARIATE NORMALITY.  Check to see that your data approximate this
  950.  assumption: most intro. texts list conditions under which it may be relaxed.
  951. *TTEST-RHO,A
  952.      A special t-Test is used to test for the significance of Spearman's Rho.
  953.  The computing formula for this test is the same as that used for the Linear
  954.  Correlation Coefficient (r) except that Rho replaces r in the computations.
  955. *ZTEST-TAU,A
  956.      The significance test for Kendall's Tau uses a z-statistic, which is
  957.  referred to a table of the Standard Normal Distribution to obtain p-values.
  958.  For sample sizes less than 10, exact tables are available and should be used
  959.  instead of the Normal approximation.
  960. *FTEST-ETA,A
  961.      The significance test used for the Correlation Ratio (Eta) is the F-Test
  962.  obtained from a ONE-WAY ANALYSIS OF VARIANCE.
  963. *FTEST-MULTR,A
  964.      An F-Test is used to test for the significance of the Multiple Correla-
  965.  tion Coefficient.  A special t-Test or F-Test (yielding identical p-values)
  966.  is used to test the significance of each Regression Coefficient in the equa-
  967.  tion.  F-Tests for "R-Square Change" can be used to test whether a set of
  968.  two or more Independent Variables contributes significantly to the fit of
  969.  equation.  Valid application of these tests rests on many stringent assump-
  970.  tions: consult a Multiple Regression/Correlation text for information about
  971.  these assumptions and check to see that your data meet them.
  972. *S-LOG-LIN,A
  973.      Several significance tests are usually applied in a Log-Linear Analysis,
  974.  all of which are referred to the Chi-Square Distribution to obtain p-values.
  975.  In addition to a test for overall fit of a Log-Linear Model (analogous to a
  976.  test for R-Squared in Regression), tests are usually made for MAIN EFFECTS
  977.  and INTERACTION EFFECTS (analogous to F-Tests in Analysis of Variance).
  978. *S-DISCRIM,A
  979.      Several F-Tests are usually applied in a Discriminant Analysis, includ-
  980.  ing: a test for fit of each discriminant function, tests for the contribu-
  981.  tion of each Discriminant Function Coefficient, and tests for differences
  982.  between groups.  Computer programs also use significance tests as criteria
  983.  for including variables and for terminating the analysis.  [The validity of
  984.  these criteria, like ALL significance tests, rests on the assumption of
  985.  Random Sampling.]
  986. *S-FACTOR-ANAL,A
  987.      Numerous tests can be applied in Factor Analysis, including tests for
  988.  Factor Loadings, Correlations between Factors, and the Number of Factors.
  989.  When the focus is on description, as it is in so-called "Exploratory Factor
  990.  Analysis," there is usually no need for any tests.  However, significance
  991.  tests become central when the Factor Analysis is used to address theoretical
  992.  hypotheses, as in "Confirmatory Factor Analysis."
  993. *S-KENDALL-W,A
  994.      The significance test for Kendall's W uses exact tables when sample
  995.  size and the number of variables are small.  Otherwise, a Chi-Square stat-
  996.  istic is used.  The Null Hypothesis tested is that the sample was drawn
  997.  from a population in which the variables are mutually Independent.
  998. *S-COCHRANQ,A
  999.      Cochran's Q Test is designed to compare a DICHOTOMOUS DEPENDENT VARIABLE
  1000.  across 3 or more MATCHED SUB-SAMPLES.  The Dependent variable may be inher-
  1001.  ently dichotomous or transformed to a dichotomy especially for the Q-test.
  1002.  There is NO TEST designed to compare a Dependent variable with 3 or more
  1003.  categories across Matched Sub-Samples.
  1004.      Cochran's Q Test assumes only Nominal Measurement, but if an Ordinal
  1005.  Dependent variable is dichotomized at the OVERALL MEDIAN, it can be used to
  1006.  test the Null Hypothesis that Matched Sub-Samples were RANDOMLY drawn from
  1007.  Populations with the same Median.
  1008. *KRUSKAL,A
  1009.      The Kruskal-Wallis Test is designed to compare an ORDINAL DEPENDENT
  1010.  VARIABLE across 3 or more INDEPENDENT SUB-SAMPLES.  If the Dependent vari-
  1011.  able is not inherently Ranked it must be transformed to Ranks for the test.
  1012.  The Kruskal-Wallis is an analogue of One-Way ANOVA and uses a Chi-Square
  1013.  test statistic in place of the ANOVA F-Test.
  1014. *FRIEDMAN,A
  1015.      The Friedman Test is designed to compare an ORDINAL DEPENDENT VARIABLE
  1016.  across 3 or more MATCHED SUB-SAMPLES.  If the Dependent variable is not
  1017.  inherently Ranked it must be transformed to Ranks for the test.  This test
  1018.  is an analogue of "Two-Way ANOVA" (Randomized Blocks ANOVA) and uses a
  1019.  Chi-Square test statistic in place of the ANOVA F-Test.
  1020. *S-COMP2-RANK,A
  1021.      There is no well-known significance test for Ordinal data that can
  1022.  handle 2 or more Independent (Comparison) Variables in a single analysis.
  1023.  That is, there are no Ordinal-Level analogues to Factorial ANOVA, Analysis
  1024.  of Covariance, etc., which are used with Interval Dependent Variables.
  1025. *S-COMP2-DICH,A
  1026.      There is no test designed to compare a DICHOTOMOUS DEPENDENT VARIABLE
  1027.  across SUB-SAMPLES created by 2 or more Independent (Comparison) variables.
  1028.  However, if it's appropriate to shift the Analytical Focus from "Sub-Sample
  1029.  Comparison" to "Association," a number of alternatives are open.  Among
  1030.  these are Logistic Regression and Discriminant Analysis.  If your Analytical
  1031.  Focus can be changed in this way -- if it MAKES SENSE to cast your research
  1032.  questions in terms of Association -- return to WATSTAT's Choice Boxes and
  1033.  select "No Sub-Sample Comparisons" in Box 2 and "Describe Association" in
  1034.  Box 3.  WATSTAT's Report will then give you more information about Logistic
  1035.  Regression and Discriminant Analysis.
  1036. *S-COMP2-NOM-IND,A
  1037.      There is no test designed to compare a NOMINAL DEPENDENT VARIABLE across
  1038.  SUB-SAMPLES created by 2 or more Independent (Comparison) variables.
  1039.      If it's appropriate to change your Analytical Focus from "Sub-Sample
  1040.  Comparison" to "Association," a number of alternatives are open, namely,
  1041.  Log-Linear Analysis, Logistic Regression, and Discriminant Analysis.  If it
  1042.  MAKES SENSE to re-cast your research questions in terms of Association,
  1043.  return to WATSTAT's Choice Boxes and select "No Sub-Sample Comparisons" in
  1044.  Box 2 and "Describe Association" in Box 3.  WATSTAT's Report will then give
  1045.  you more information about the above alternatives.  [All these alternatives
  1046.  require advanced statistical training: a wise novice will seek expert help.]
  1047. *S-COMP2-NOM-MATCH,A
  1048.      There is NO MULTIVARIATE TEST designed to compare a NOMINAL DEPENDENT
  1049.  VARIABLE across MATCHED SUB-SAMPLES created by 2 or more Comparison vari-
  1050.  ables.  If you haven't yet collected the data, consider ways to achieve an
  1051.  Interval-Level measure of the Dependent variable.  If the data are already
  1052.  collected, and if it's appropriate and feasible to dichotomize the Dependent
  1053.  variable, you may be able to use ANOVA F-Tests. [This will also require a
  1054.  so-called ARCSINE TRANSFORMATION before ANOVA can be applied to a Dichotomous
  1055.  Dependent variable.]  If either of these options is viable in your case,
  1056.  return to WATSTAT's Choice Boxes and select "Interval" in Box 5.
  1057. *COPYRIGHT,A
  1058.  COPYRIGHT 1991 BY HAWKEYE SOFTWORKS, 300 GOLFVIEW AVE., IOWA CITY, IA, 52246
  1059. 
  1060.  
  1061.